亲历美国中小学生都在用的自适应测评MAP
文 | 楼夷
自从去年夏天朵拉学习英语至今,我一直想知道朵拉的水平究竟如何。
可是,在美国她上的Preschool和Kindergarten都是没有考试的。直到我们临走前,老师下发了通知说一周后要考单词,并且附上了考试范围让复习一下。我一看,一共10个单词,包括:She,he,has。。。。。。
回到国内,小学一年级英语课本的内容全是“Hello,what is your name”级别,也很难看出朵拉的水平。
直到最近我给朵拉报一个冬令营的班,对方提出要先测试,以便分班。采用的测试是MAP。
个性化学习和庞大的考生数据库
MAP®(Measures of Academic Progress),是一种基于网络的电脑自适应测试。也就是说,这个考试不是纸质的,必须用电脑考,而且每个人的考卷都不一样。
如果考生题目答对了,电脑就会出一个稍难的题目。如果答错了,电脑就会提出一个比原来的题目更容易一点的。总之,这样的考试对水平高的考生可以做到上不封顶,能测出他们的真实水平;也让水平低的考生感到难度适宜。
这就是现在非常流行的人工智能判卷出题了。要做到自适应测试,除了电脑有强大的分析能力,还需要有一个庞大的题库,给出千变万化的考卷。
MAP的第二大优势是其学生成绩数据库。
考卷可以个性化,但是评估依然要和他人比才能真正定位自己。每年有上千万美国中小学生参加MAP测试,还有全球146个国家和地区的学生加入。这样能够让考生真正知道自己的水平如何。要说动美国的教育部门和学校都参与这个考试,本身也是一项大工程啊。
全面评测英文能力
这可是6岁的朵拉人生中第一次正式的考试。我于是花了半小时,带着朵拉去了解题型。
我的感觉是,题目比较灵活,的确能够考察孩子的多方能力。目前大部分英文测试只看英文能力,但MAP则包含数学、科学和语言和阅读四方面。朵拉因为只是一年级,只考数学和阅读,而且考虑到小朋友识字能力不行,是用音频把题目读出来的。
以数学为例,其中一道题上画了一头奶牛,然后问:5只奶牛一共有几条腿?这个题目考了听力、加法(一头奶牛几条腿)以及乘法。
阅读题则有点像朵拉很喜欢玩的识字应用2kids。有一道题目问:请把下面的水果都选择出来。后面列了一堆蔬菜水果的图片。小朋友需要把所有的水果图片都点击出来。
所以,当朵拉问我题目是什么样的,我的回答是:就像“玩TodoMath 和 2Kids一样。”
这期间,我最担心的还是考试时间。
根据MAP的官方说明,每门考试时间大约为1个小时。6岁的朵拉没有参加过任何考试。我很难想象她能坐在椅子上整整两个小时上完成考试。后来客服告诉我,每门考试大概40多道题,一二年级的小朋友因为题目相对简单,一般20分钟就做完题了。这样我才放心。
考到了除法和平方根
正式考试的时候才发现,我放心得太早了。
考试开始半小时后,一个个比朵拉大的孩子都出来了。我直到一个半小时后,才发现朵拉出门。她一出门就说:“考试太难了,都考到除法了。还有我根本不认识的符号。”
我让她画出来,才知道这是平方根。
除法应该是小学二年级下学期学的,而平方根是初中学的。才上小学不到两个月的朵拉怎么会遇到这样的题目?
这自适应也太高估孩子了吧。我真是百思不得其解。
和数学相比,朵拉觉得阅读就简单不少。如果根据自适应测试“强者越难,弱者越易”的出题规则,那么很可能朵拉的数学成绩要好于阅读。
没有绝对值的成绩
三天后,我收到了成绩报告。
首先,这是一个没有绝对值的成绩。
也就是说,MAP给的RIT成绩只是一个区间,虽然有一个取中的值方便你理解和对比,但是MAP认为你孩子的能力其实是在这个值相邻的区间里。在不同的情况下,孩子的成绩可能就在这个区间浮动。也就是所谓避免“一考定终身”吧。
以朵拉的成绩为例。她的数学RIT分数是206,给的区间是203-209。而同期美国一年级考生的平均成绩为162. 相差还是很大的。MAP还给了她和同龄美国学生排名的比例区间,即99%-99%。也就是说,有1%的美国同龄学生可能排在她前面。
正如我所料,朵拉的阅读成绩比数学要低,为186,属于183-189这个区间。而同期的美国一年级考生的平均成绩为161.。朵拉的排名区间为95%-99%。
其次,报告给出了朵拉的较强项和薄弱项。
以数学为例,她在代数思维方面较强,但在集合和测量方面较弱。在阅读方面,她在语言的运用和写作方面较强。
这样具体的细节评估对于每个考生自身就更有帮助。以后可以有的放矢地进行学习。
MAP之类的自适应测试未来会进入中国吗?
在所有在英文测试中,MAP被视为比较神秘的考试。
因为SAT、SCAT、STAR等测试都比较商业化,中国人都可以直接参加。但是MAP仅对国际学校等小部分机构开放。如果不是因为这次要找冬令营,朵拉这个普通小学的小学生也不可能参加。
中国有没有可能推出自己的自适应测试呢?我觉得完全可以。
在我看来,自适应测试的成功主要取决于三大因素:计算机的人工智能或者说分类识别和计算能力、庞大的适应不同级别能力的题库以及庞大的考生数据库。这些并不是难事。
难就难在考试制度是否能够真正有助于个性化学习。
据一些参与过MAP测试的美国学校华人考生家长博客,MAP在美国比较普及,甚至会影响到某些地区公立学校的排名。
但是正因此,它遭到一些批评。这并不是因为这项测试本身不好,而是因为大规模普及测试给一些公立学校带来了压力。
第一个成本是硬件。MAP的测试是线上测试,这就要求公立学校采购大量电脑。
现在美国很多地区给公立学校的预算一砍再看,学校为了多买几台电脑都得发动大家筹款,特别不容易。把好不容易争取的经费都用于电脑,而不是书或者其他教材,这样做对吗?
其二是时间。虽然说这个考试的本意是带来个性化考试体验。但是任何考试,一旦涉及到排名,必然会激发大规模重复性训练。美国也一样。
一些美国公立学校的教师认为,本意是为了老师提高教学质量的测试,却让老师被迫花大量时间备考,这就南辕北辙了。这样就挤压了教学时间,更别提个性化教学了。
我不知道引入MAP测试的中国国际学校会不会这么重视MAP测试或者重视测试本身。如果是,那么也得警惕这个陷阱。
至于我们公立学校的孩子,早就对各种各样的考试有了心理准备,无论这考试长着什么样的脸和以什么样的改革为名。
这些批评当然不是MAP的错误。只能说,无论多么强调个性化学习,是骡子是马,最终要拿出来溜一溜的。因为学校本身,就是把人训练成社会化动物的场所。
It is education, but also competition.
赞赏一下
相关文章